连载(9):统计图形艺术——三元图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
本章图形主要用于展示三维或有限高维的数据特征。稍息两周之后,团队将陆续推送统计图形模块,敬请期待!
三元图 Ternary Plot
三元图,由德国天文学家、数学家Tobias Mayer于1752年首次提出 [1],用来表示颜色的构成,三个角分别代表红(R)、绿(G)、蓝(B)三原色(图 9.1)。
图9.1:Mayer的三原色图
三元图用于展示三维数据,各维度之和需为1或100(标化后亦可)。
脸谱图用面部特征代表不同维度的值的水平,可展示相对高维的数据。
马赛克图可用于列联表高维数据的可视化。
三元图,其基本思想是在二维平面中,用等边三角形的三条边来代表三个维度。数据点越靠近三角形的顶点,则该顶点之属性占比越高。
某个点若完全位于顶点上,则它在该属性的取值为100%。
例: 本例以578名受试者体血液中无机砷(inorganic arsenicals, iAs)及其两种代谢产物一甲基胂酸(monomethyl arsenicals, MMA)和二甲基胂酸(dimethyl arsenicals, DMA)的含量,来绘制三元图(图 9.2)。
可见,大部分受试者体内的DMA%较高,显著高于MMA%和iAs%。
图9.2:受试者体内无机砷
及其代谢物含量之三元图
在常规三元图基础上,加上可信区间带,更具展示度(图 9.3)。
图9.3:受试者体内无机砷及其
代谢物含量之三元图(阴影为可信区间)
脸谱图,由美国统计学家Herman Chernoff于1973年提出 [2],他将西班牙西北部87个黄色石灰岩标本中的6个测量指标,包括:胚室内径(mm)、螺纹数、第一个螺纹内胚室数及其最大内径值、最后一个螺纹内胚室数及其最大内径值,分别化为脸部6种特征,包括:脸角的大小、上半部分脸宽、下巴宽、嘴位置、嘴弯曲度、眼睛大小。
例:本例仅展示其中44个标本的脸谱图(图 9.4)。
图9.4:西班牙北部44例石灰岩标本中
6种元素含量之脸谱图
例:本例根据1978至1982年间8个不同人种中的男性肺癌发病情况数据绘制脸谱图 [3]。
8个指标包括:癌症登记年限、组织学诊断指标、标化发病率、确诊年龄中位数、发病率趋势(下降、平稳、上升)、死亡率/发病率比值、肺癌占所有癌症比例(黑色素瘤和皮肤癌除外)、死亡率。
其中癌症登记年限转化为脸长和头发长度、组织学诊断指标转化为脸宽和头发宽度、发病趋势转化为脸型和头型、肺癌所占比例转化为嘴和鼻子的高度、确诊年龄中位数转化为嘴和鼻子的宽度、标化发病率转化为微笑和耳朵宽度、死亡率/发病率比值转化为眼睛和耳朵的高度、死亡率转化为眼睛宽度(图 9.5)。
图9.5:1978-1982年8个人种男性
肺癌发病相关情况脸谱图(仅供娱乐)
马赛克图,由法国工程师Charles Joseph Minard于1844年发明 [4],其名为Tableau Graphique,主要用于展示运输货物和工作人员的不同成本。宽度对应路程远近,高度对应旅客或货物种类的比例(图 9.6)。
图9.6:第一幅马赛克图
马赛克图可用于展示多维列联表数据,类似于多个百分比堆叠条形图。可用于展示分类变量中类别与子类别的关系。
例:本例数据来源于南京市卫健委官网,用马赛克图展示2020年南京市不同等级医院(一级、二级、三级)的床位数、卫生技术人员数量、执业(助理)医师数量、注册护士数量(图 9.7)。
图9.7:2020年南京市不同等级医院
的床位数和卫生技术人员数量情况
三元图其本质是转化坐标后的散点图。各数据点对应3个属性数值可的其在二维坐标系中的位置。 马赛克图对于列联表数据的维度无限制。 马赛克图的横轴既具有分类特征,又可显示横轴分类的另一维度的特征(如不同级别医院的数量),这是优于百分比堆叠条形图的。
参考文献:
Richard, J., Science H. Sources for a history of the ternary diagram. 1996;29(3):337–56.
Chernoff H. The use of faces to represent points in k-dimensional space graphically. 1973;68(342):361–8.
Mati R. Graphical representation of cancer incidence data: Chernoff faces. 1989;(4):763–7.
Friendly M. Milestones in the history of data visualization: A case study in statistical historiography. 2005.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
统计图形艺术——“图形”英文词意辨析